Despite the current success of multilingual pre-training, most prior works focus on leveraging monolingual data or bilingual parallel data and overlooked the value of trilingual parallel data. This paper presents \textbf{Tri}angular Document-level \textbf{P}re-training (\textbf{TRIP}), which is the first in the field to extend the conventional monolingual and bilingual pre-training to a trilingual setting by (i) \textbf{Grafting} the same documents in two languages into one mixed document, and (ii) predicting the remaining one language as the reference translation. Our experiments on document-level MT and cross-lingual abstractive summarization show that TRIP brings by up to 3.65 d-BLEU points and 6.2 ROUGE-L points on three multilingual document-level machine translation benchmarks and one cross-lingual abstractive summarization benchmark, including multiple strong state-of-the-art (SOTA) scores. In-depth analysis indicates that TRIP improves document-level machine translation and captures better document contexts in at least three characteristics: (i) tense consistency, (ii) noun consistency and (iii) conjunction presence.
translated by 谷歌翻译
多语言机器翻译已被证明是一种有效的策略,可以用单个模型在多种语言之间进行翻译。但是,大多数研究都集中在多语言句子翻译上,而无需考虑跨不同语言生成长文档,这需要了解多语言上下文依赖性,并且通常更难。在本文中,我们首先是天真地纳入辅助多语言数据的辅助目标或源辅助数据对我们感兴趣的源目标对没有任何改进。在这一观察过程中,我们提出了一个名为多语言传递性(MTRAN)的新型框架,以在多语言模型中通过源辅助目标找到一个隐式的最佳途径。为了鼓励MTRANS,我们提出了一种称为三重平行数据(TPD)的新方法,该方法使用包含(源 - 载体,辅助目标和源目标)的平行三重线进行训练。然后,辅助语言充当枢轴,并自动促进隐式信息过渡流,从而更容易翻译。我们进一步提出了一个名为“双向多语言协议”(BI-Magree)的新颖框架,该框架鼓励不同语言之间的双向协议。为了鼓励Bi-Magree,我们提出了一种称为多语言Kullback-Leibler Divergence(MKL)的新颖方法,该方法迫使输入的输出分布具有相同的含义,但以不同的语言彼此一致。实验结果表明,我们的方法对三个文档翻译任务的强大基准进行了一致的改进:IWSLT2015 ZH-EN,DE-EN和VI-EN。我们的分析验证了MTRAN和BI-MAGREE的实用性和存在,我们的框架和方法对合成辅助数据有效。
translated by 谷歌翻译
课程数据增强(CDA)通过呈现综合数据,从而提高了神经模型,从而使困难从易于努力提高。但是,传统CDA只是将单词扰动的比率视为难度度量,而仅通过一次课程。本文介绍\ textbf {pcc}:\ textbf {p} araphrasing用底部-k采样和\ textbf {c} yclic学习,用于\ textbf {c} urriculum数据增强,这是一种通过paraphrasing的新颖cda框架,该paraphrasing offlosing paraphrasing,该框架利用了paraphrasing,该框架可利用paraphaphraseing,与课程难度度量相似。我们提出了一个由三个单元组成的课程释义生成模块:带有底部K采样的释义候选者,过滤机制和难度度量。我们还提出了一种循环学习策略,该策略多次通过课程。提出了底部K采样来生成后来课程的超硬实例。几乎没有的文本分类以及对话生成的实验结果表明,PCC超过了竞争基线。人类评估和广泛的案例研究表明,底部K采样有效地产生了超硬的实例,PCC显着改善了基线对话代理。
translated by 谷歌翻译
结合PersonAs信息允许在对话响应生成中多样化和接触响应。不幸的是,事先作品主要专注于自我的人物,并忽视了合作伙伴角色的价值。此外,在实际应用中,实际伙伴角色的可用性通常不是这种情况。本文试图通过提供一种新颖的框架来解决这些问题,这些框架利用自动合作伙伴角色生成来增强成功的对话一代。我们将强化学习纳入了一个专门设计的批评网络,以获得奖励判断。自动和人类评估的实验结果表明a)我们的框架能够产生相关,信息丰富的合作伙伴角色,甚至与地面真理合作伙伴角色相比。 b)生成的合作伙伴角色增强了后续的响应生成,从而超越了当在推理阶段缺少合作伙伴角色时超越了我们的基线和比较模型。 c)我们的框架在推理期间产生的响应比我们的基线在地面真理合作伙伴角色上的基线更具信息丰富和参与。 d)我们专门设计的批评批评网络有效地加强了我们的框架。最后,我们的框架提供了更好的解释性,并降低了对伙伴角色的外部数据库的需求。
translated by 谷歌翻译
We study the problem of estimating latent population flows from aggregated count data. This problem arises when individual trajectories are not available due to privacy issues or measurement fidelity. Instead, the aggregated observations are measured over discrete-time points, for estimating the population flows among states. Most related studies tackle the problems by learning the transition parameters of a time-homogeneous Markov process. Nonetheless, most real-world population flows can be influenced by various uncertainties such as traffic jam and weather conditions. Thus, in many cases, a time-homogeneous Markov model is a poor approximation of the much more complex population flows. To circumvent this difficulty, we resort to a multi-marginal optimal transport (MOT) formulation that can naturally represent aggregated observations with constrained marginals, and encode time-dependent transition matrices by the cost functions. In particular, we propose to estimate the transition flows from aggregated data by learning the cost functions of the MOT framework, which enables us to capture time-varying dynamic patterns. The experiments demonstrate the improved accuracy of the proposed algorithms than the related methods in estimating several real-world transition flows.
translated by 谷歌翻译
提示方法被认为是几次自然语言处理的关键进展之一。最近对基于离散令牌的``硬提示''转移到连续``软提示''的最新研究,这些提示将可学习的向量用作伪提示代币并实现更好的性能。尽管显示出有希望的前景,但观察到这些软宣传的方法在很大程度上依赖良好的初始化来生效。不幸的是,获得软提示的完美初始化需要了解内在语言模型的工作和精心设计,这绝非易事,必须从头开始重新启动每个新任务。为了解决此问题,我们提出了一种称为Metaprompting的广义软提示方法,该方法采用了良好认可的模型 - 静态元学习算法,以自动找到更好的及时初始化,从而快速适应新的促进任务。问题并在四个不同的数据集上带来了显着改善(1次设置的准确性提高了6分),从而实现了新的最新性能。
translated by 谷歌翻译
基于深度学习的计算机辅助诊断(CAD)在学术研究和临床应用中引起了吸引人的关注。然而,卷积神经网络(CNN)诊断系统严重依赖于标记的病变数据集,对数据分布变化的敏感性也限制了CNN在CAD中的潜在应用。开发了无监督的域适应性(UDA)方法来解决昂贵的注释和域间隙问题,并在医学图像分析中取得了巨大的成功。然而,现有的UDA方法仅适应从源病变域中汲取的知识到一个单个目标病变域,这是针对临床情况的:要诊断的新的未标记的目标域始终以在线和连续的方式到达。此外,由于新知识的知识覆盖了先前学到的知识(即灾难性的遗忘),因此现有方法的性能在先前学到的目标病变域上大大降低。为了处理上述问题,我们开发了一个名为连续病变知识元适应(CLKM)的元适应框架,该框架主要由语义适应阶段(​​SAP)和表示适应阶段(​​RAP)组成,以在线学习诊断模型和连续的方式。在SAP中,从源病变域中学到的语义知识转移到连续的靶病变域。在RAP中,优化了功能提取器以对齐整个源和多个目标病变域的可转移表示知识。
translated by 谷歌翻译
点过程模型在现实世界应用中非常重要。在某些关键应用程序中,对点过程模型的估计涉及来自用户的大量敏感个人数据。隐私问题自然出现了现有文献中未解决的问题。为了弥合这一明显的差距,我们提出了第一个针对点过程模型的第一个一般差异私人估计程序。具体来说,我们以霍克斯的流程为例,并根据霍克斯流程的离散表示,为事件流数据引入了严格的差异隐私定义。然后,我们提出了两种差异性优化算法,可以有效地估算霍克斯流程模型,并在两个不同的设置下具有所需的隐私和公用事业保证。提供实验以支持我们的理论分析。
translated by 谷歌翻译
感觉到航天器的三维(3D)结构是成功执行许多轨道空间任务的先决条件,并且可以为许多下游视觉算法提供关键的输入。在本文中,我们建议使用光检测和范围传感器(LIDAR)和单眼相机感知航天器的3D结构。为此,提出了航天器深度完成网络(SDCNET),以根据灰色图像和稀疏深度图回收密集的深度图。具体而言,SDCNET将对象级航天器的深度完成任务分解为前景分割子任务和前景深度完成子任务,该任务首先将航天器区域划分,然后在段前景区域执行深度完成。这样,有效地避免了对前景航天器深度完成的背景干扰。此外,还提出了一个基于注意力的特征融合模块,以汇总不同输入之间的互补信息,该信息可以按顺序推论沿通道沿着不同特征和空间维度之间的相关性。此外,还提出了四个指标来评估对象级的深度完成性能,这可以更直观地反映航天器深度完成结果的质量。最后,构建了一个大规模的卫星深度完成数据集,用于培训和测试航天器深度完成算法。数据集上的经验实验证明了拟议的SDCNET的有效性,该SDCNET达到了0.25亿的平均绝对误差和0.759m的平均绝对截断误差,并通过较大的边缘超过了前期方法。航天器姿势估计实验也基于深度完成结果进行,实验结果表明,预测的密集深度图可以满足下游视觉任务的需求。
translated by 谷歌翻译
不平衡的数据对基于深度学习的分类模型构成挑战。解决不平衡数据的最广泛使用的方法之一是重新加权,其中训练样本与损失功能的不同权重相关。大多数现有的重新加权方法都将示例权重视为可学习的参数,并优化了元集中的权重,因此需要昂贵的双重优化。在本文中,我们从分布的角度提出了一种基于最佳运输(OT)的新型重新加权方法。具体而言,我们将训练集视为其样品上的不平衡分布,该分布由OT运输到从元集中获得的平衡分布。训练样品的权重是分布不平衡的概率质量,并通过最大程度地减少两个分布之间的ot距离来学习。与现有方法相比,我们提出的一种方法可以脱离每次迭代时的体重学习对相关分类器的依赖性。图像,文本和点云数据集的实验表明,我们提出的重新加权方法具有出色的性能,在许多情况下实现了最新的结果,并提供了一种有希望的工具来解决不平衡的分类问题。
translated by 谷歌翻译